VLM 实现 10%的精度提高,13.1倍加速!纽约大学新算法让视觉语言模型更小、更快、更准确
纽约大学的研究团队通过QSVD的新方法,让视觉语言模型(VLM)实现了惊人的效率飞跃,在普通GPU上获得了高达13.1倍的运行速度提升。
纽约大学的研究团队通过QSVD的新方法,让视觉语言模型(VLM)实现了惊人的效率飞跃,在普通GPU上获得了高达13.1倍的运行速度提升。
11 月 13 日,北京人形机器人创新中心正式开源了具身智能 VLM 模型 ——Pelican-VL 1.0,根据介绍,该模型覆盖 7B、72B 参数规模,被称为 “最大规模的开源具身多模态大脑模型”。
11月13日,北京人形机器人创新中心全面开源具身智能VLM模型——Pelican-VL 1.0。该模型覆盖7B、72B参数规模,是迄今为止“最大规模的开源具身多模态大模型”,同时,也是迄今为止全球性能最强大的具身智能VLM模型,根据测试,其性能超越GPT-5
在 AI 多模态的发展历程中,OpenAI 的 CLIP 让机器第一次具备了“看懂”图像与文字的能力,为跨模态学习奠定了基础。如今,来自 360 人工智能研究院冷大炜团队的 FG-CLIP 2 正式发布并开源,在中英文双语任务上全面超越 MetaCLIP 2
当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑
近日,在ICCV 2025自动驾驶国际挑战赛(Autonomous Grand Challenge 2025)中,浪潮信息AI团队凭借其提出的创新框架“SimpleVSF”,以53.06的EPDMS综合得分,在端到端自动驾驶赛道中夺得冠军。该项目创新构建以鸟瞰
DeepSeek-OCR刚发布,马斯克说:从长远来看,人工智能模型的输入和输出中 99% 以上都将是光子。直到不能缩放。
近日,一篇由华人研究团队撰写的论文冲上Hugging Face论文日榜前三,并提出了一条让VLM模型摆脱人工标注、靠自己进化的新路。
自动驾驶车辆要在复杂多变的道路环境中安全行驶,不仅需要“看见”前方的车辆、行人和路面标志,还需要“读懂”交通标识上的文字提示、施工告示牌和乘客的语言指令。之前和大家讨论过VLA(相关阅读:自动驾驶中常提的VLA是个啥?),了解到视觉-语言-动作模型,但在很多场
模态 transformer vla 自然语言 vlm 2025-09-24 04:46 5
9月16日-17日,聚合智能产业发展大会(2025)在武汉市举行,主题为“协同融合创新链产业链 推动聚合智能产业发展”。聆动通用创始人兼CEO、科大讯飞机器人首席科学家季超出席并演讲。
小鹏全新P7以21.98万的起售价点燃市场热情,上市仅七分钟大定突破一万台。这一成绩也说明,小鹏最新押注的“颜值+科技”组合路线初见成效。
机器人操作是具身人工智能(Embodied AI)的关键前沿,它要求机器具备精准的运动控制和复杂的多模态理解能力。然而,传统的机器人技术在面对非结构化、充满变化的真实世界环境时,往往显得力不从心。近年来,随着大型视觉-语言模型(Large Vision-Lan